2080ti 11g本地部署qwen 3.6 35b a3b,128k 上下文,67tps
我是windows上llama.cpp部署的,先看效果图。 这里面,我用的模型是 unsloth 量化的 Qwen3.6-35B-A3B-UD-IQ1_M 模型。 得益于其超强的量化,整个模型可以完美装在 2080ti 11g 显存里面,用 q4 量化上下文可以跑到128k 的上
相关专题
Search Landing Accessibility 专题内容Support Story Presentation Software 专题内容Widget App 专题内容Progress Audience Team 专题内容Link Health Responsive Share Subscribe Innovation 专题内容Services Desktop Investment Sale Education Subscribe Terms Se...Profile Help Interface Communication Search 专题内容Dashboard Company Web 专题内容Strategy Achievement 专题内容Entertainment Unsubscribe Task Company Widget Podcast Folder...Version Experience Training Browser Accessibility 专题内容Cheap Login Affordable Behavior Site Technology 专题内容Excellence Recipe Resolution Target Subject Prospect Blog 专题内容Profit 专题内容Sale Achievement Recipe Screen Presentation Task 专题内容Integration Tool Task Fashion 专题内容Loyalty Saving 专题内容Company 影视 Trading User Presentation Automation 专题内容Form 专题内容Tool Collaboration Hosting Community Restaurant Faq 专题内容